查看原文
其他

坏样本不够多,怎么办?

66号学苑 2022-09-08

The following article is from 屁屁的sas数据分析 Author 屁屁

今天的话题我们分为两部分,一部分是在建模前提如何处理坏样本过少的问题,第二部分是说模型建立之后,验证你这模型的效果的方法。


首先样本过少分两种情况。一种是确实没啥坏样本,就是几十个,一百来个。另外一种就是相对于好样本,比较少,例如你有一百万的好样本,只有一万的坏样本,第二种就是属于样本不均衡的话题,这个网上的文献也都有好多,我这里就不展开了。


样本过少之我只有几十个坏样本。这种情况多数发生在产品刚上线的时候,没啥数据,但是又觉得规则撑不住,所以还是想做模型来和规则一起来维稳,这时候你可以把这种情况当做冷启动来处理,我之前讲冷启动的时候,提到一点点,这边我们来细化一下可以有哪些方法。


放弃这仅有的样本,重新寻找近似的坏样本。为什么我说要放弃这仅有的样本,如果是产品上线的初期,首先这时候你的风控不敢放松,容忍度较低,那么通过率相对较低,这是坏样本少的一个方面,另外一个方面就是,本身产品刚上线的话,可能坏样本就是近一个月进来产生的坏样本,指不定就是逾期了3天,你就觉得他是坏客户,这有些说不过去,所以这里有两个点希望你放弃这批坏样本:1、够不够坏,如果够坏,那是不是剩十几个了。2、坏样本的覆盖面不全,这个月进来的坏样本的特征不能覆盖到基本的坏样本的特征,尽管可以拟合出来的模型在当下有用,但是后续还是有很大的可能会不稳定。


在第一点中我说希望你放弃坏样本的理由,如果你的坏样本不满足第一天的条件,你可以不放弃的,我不想劝你。那么补充坏样本可以有以下几种方式:


1.其他数据的标准定义坏样本。你们公司接了什么第三方数据我不知道,但是一般一般呢,不是粗暴放款的,至少都接了简版征信,简版征信中有好几个逾期标准,举个例子哈,五年内超过90天逾期的次数,点到为止,你自己在这份数据中衍生其他逾期标准。这思路就跟你找犯人的时候,把之前有前科的人抓出来扫一遍一样。


2.使用其他数据阈值切分坏样本。我又要拿我喜欢拿出来举例子的数据----多头数据,这个方法跟警察抓嫌疑犯一样,虽然我没看到你明显犯罪了,但是我觉得你有动机。可以使用多头的数据中,你们不能容忍的超过几次的阈值,例如近一个月超过20次,那么等于大于20次的客户就是坏客户。


3.物以类聚法或者专家评分卡。根据你的经(感)验(觉)找出几个跟客户逾不逾期的强相关变量,最好是数值型的变量,这时候可以把那之前提到的那几十个坏样本,使用聚类(建议knn)找出,哪一类的坏样本的占比最高的,把这个类的样本就当做坏样本。后者使用专家评分卡,找出专家评分卡下分数比较低的那5%-10%。


4.使用人工标准。那么我们在审批环节中(假设你们还是有人工介入的),这时候可以概括两种拒绝的人:1、系统拒绝,2、人工拒绝。那么系统拒绝的客户,你可以定义为,他一出来,你一眼就知道他是坏人,人工拒绝的客户,你可以理解为,这货一路伪装了好多东西,但是最后被你们公司高端的审批高超的话术征服了,道出了他想犯罪的想法,然后你叫他滚,然后他犯罪不遂,但是没有你们高端的审批,这个人就可能变成你们公司的坏客户。那么这里说一个问题,就是公司做模型是为了什么,为的节省人力,最理想的状态就是风控的各个环节可以让90%的客户完成审核审批,10%人工核验,你们要是有种100%风控系统全自动审批,我也不拦你。所以你这时候,你就发现,你顶着风控建模师的职称,你的工作就变成把这本应人工拒绝的客户变成你的模型能拒绝的,所以人工拒绝的客户就变成你的坏客户了,这些思路顺着下去,你可以分析出更多适合你的模型的坏客户。


5.无监督建模。这个方法是区别于以上四个方法,以上都是在说怎么找出坏样本,因为我们要做监督模型,那么要是你有种一点,你跟领导说,我觉得我做无监督的效果也可以做的很牛逼,这我也不拦你的,毕竟建模的思维本来就是扩散,这个就有个问题就是说,如果是无监督的话,那么可能部署到系统上是个问题。



来源|屁屁的sas数据分析

作者|屁屁




更多精彩,戳这里:


|这是一份可以让你很牛很牛的风控技能包|

|信贷常用风险指标|

|哪家数据供应商的数据好用|

|模型验证-ROC和AUC|

|40张PPT详解信用风险模型在金融科技中的开发和应用|



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存